對於那些不熟悉 dbt 的人來說,它是「data build tool」的縮寫。顧名思義,dbt的主要使用案例是架構資料管道和簡化資料分析流程。對dbt有興趣而不熟悉的朋友們,我強烈推薦查看我的團隊成員撰寫的 dbt 入門文章或加入dbt community 到 #local-taipei 找我們!
在 2023 年,dbt是增長最快的數據和 AI 產品之一,根據 Databricks 的一份報告,2023 年同比增長了 203%。有趣的是,dbt 最初是由 Fishtown Analytics(一家資料諮詢公司)在2017年作為一個開源項目啟動的。、
而由於dbt出乎預料的受到資料社群的青睞,2018年Fishtown推出了一個SaaS產品,而2021年正式將公司改名為dbt Labs。為了將開源與商業化的兩個產品做區分,開源項目取名為dbt Core、商業化的SaaS版本則叫做dbt Cloud。
現在dbt Labs最大的問題是,當你的開源項目太受歡迎、做的太好時,要怎麼樣才能成功的商業化呢?由於dbt的爆炸性增長是超預期的,其實dbt Core的功能是高完整性的,而一開始商業化時dbt Cloud走的是低價SaaS + 高客製化諮詢的收費模式。
換句話說,在當時dbt Cloud 和 Core 之間的主要區別在於託管(SaaS Hosting vs Self Hosting),而這類的商業模式中獲得的收入存在自然的上限。如果 SaaS 費用的總成本超過了自行託管所需的工作量,那麼客戶就沒有理由購買 SaaS 版本。
很不幸的是,dbt Core設計的是在太好用、太適合開源資料生態系統了。dbt Core設置自行託管環境的門檻非常低,對資料處理系統熟悉的人來說dbt Core的工具鏈客製化比dbt Cloud省下來的工作量要更有吸引力。
此外,dbt主要佔據資料平台的資料工程和基礎設施部分。 雖然這是一個重要組成部分,但它通常也被視為成本中心(而不是收入或利潤中心)。一般資料團隊很難將業務價值歸因於資料堆疊的這一部分,而公司也不太願意為沒有明確增值的工具付費。
雖然dbt很受歡迎,這導致dbt Cloud的使用率相對低於dbt Labs的預期。
對 dbt 或 data 有興趣 :wave:?歡迎加入 dbt community 到 #local-taipei 找我們,也有實體 Meetup 請到 dbt Taipei Meetup 報名參加